首页> 外文OA文献 >Tweet2Vec: Character-Based Distributed Representations for Social Media
【2h】

Tweet2Vec: Character-Based Distributed Representations for Social Media

机译:Tweet2Vec:社交媒体的基于字符的分布式表示

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Text from social media provides a set of challenges that can causetraditional NLP approaches to fail. Informal language, spelling errors,abbreviations, and special characters are all commonplace in these posts,leading to a prohibitively large vocabulary size for word-level approaches. Wepropose a character composition model, tweet2vec, which finds vector-spacerepresentations of whole tweets by learning complex, non-local dependencies incharacter sequences. The proposed model outperforms a word-level baseline atpredicting user-annotated hashtags associated with the posts, doingsignificantly better when the input contains many out-of-vocabulary words orunusual character sequences. Our tweet2vec encoder is publicly available.
机译:来自社交媒体的文本提出了一系列挑战,这些挑战可能导致传统的NLP方法失败。非正式语言,拼写错误,缩写和特殊字符在这些帖子中都很常见,导致单词级方法的词汇量过大。我们提出了一个字符组成模型tweet2vec,该模型通过学习复杂的,非本地的字符序列来找到整个tweet的向量空间表示。所提出的模型在预测与帖子相关的用户注释主题标签方面胜过单词级别的基线,当输入包含许多词汇以外的单词或不寻常的字符序列时,效果要好得多。我们的tweet2vec编码器已公开提供。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号